期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 基于TF-IDF改进算法的聚焦主题网络爬虫
王景中, 邱铜相
计算机应用    2015, 35 (10): 2901-2904.   DOI: 10.11772/j.issn.1001-9081.2015.10.2901
摘要494)      PDF (797KB)(465)    收藏
针对传统的TF-IDF算法、 K-means算法、自适应遗传算法在网络检索结果中含有大量不相关数据、语义检索准确性不高的问题,研究了TF-IDF算法的改进及其在语义检索中的应用。将正则表达式和语义分析技术相结合,从而实现对TF-IDF算法的改进。利用语义库对搜索主题进行描述,根据正则原子语义的重要性和在网页标签中的不同位置进行加权计算,得到正则原子在文档中的相似度。通过空间向量模型对文档相似度和主题模型进行余弦运算,从而获取最终的搜索结果。最后,将改进的TF-IDF算法、传统的TF-IDF算法、 K-means算法和自适应遗传算法运用于聚焦主题网络爬虫中,对其检索结果进行了对比分析。计算结果表明,在聚焦主题网络爬虫语义分析的垂直搜索中,改进TF-IDF算法的相似度准确率比传统的TF-IDF算法检索准确率提高了17.1个百分点,遗漏率降低了7.76个百分点;比 K-means算法检索准确率提高6个百分点;比自适应遗传算法检索准确率提高了8.1个百分点。总之,改进的TF-IDF算法可以有效地提高文档相似度检测的准确率,很好地改善聚焦主题网络爬虫在语义分析中的缺陷。
参考文献 | 相关文章 | 多维度评价
2. 综合安全管理平台中日志格式化系统的设计与实现
李扬 王景中 杨义先
计算机应用    2010, 30 (06): 1708-1710.  
摘要2216)      PDF (431KB)(1097)    收藏
为了提高日志格式化系统的执行效率以及解决无法解析日志时便丢弃日志的问题,提出了一种日志格式化方案。通过将设备、传输通道和插件三者绑定,避免了格式化过程中的查找判断过程。通过引入自动更新模块,使系统在无法解析日志时可以从插件库自动下载插件来完成格式化过程。最终的测试结果表明了该方案的可行性。
相关文章 | 多维度评价
3. 矩阵型布鲁姆过滤器在病毒过滤防火墙中的研究
王景中 杜飞
计算机应用    2009, 29 (11): 2939-2941.  
摘要1411)      PDF (973KB)(1269)    收藏
针对传统的基于特征码的病毒过滤算法在实际运行中存在的效率问题,提出了一种基于矩阵型布鲁姆过滤器(MBF)的病毒过滤算法。在分析该算法的空间效率、时间效率以及错误判断率的基础上,进一步研究了它的数学模型,并给出了该算法在高速病毒过滤引擎中的设计方案。最后,通过仿真实验验证该算法的有效性和实用性。
相关文章 | 多维度评价